语音识别技术离我们有多远？

2000-09-13　来源：光明日报　IBM中国研究中心沈丽琴博士我有话说

直到今天，像人一样的机器人依然显得遥不可及，但作为机器人的耳朵，语音识别技术近几年有了许多突破性进展，终于从实验室走进了我们的生活。

首先，将隐马尔科夫模型引入语音识别是该领域的重要突破。它有效体现了语音信号的随机概率过程，它成熟的训练算法又为语音模型的建立提供了基础。至今，这仍是语音建模的主流方法。在随后的研究中，科学家们发现同样一个音，在它的上下文不同时，发音的特征不尽相同。为了更准确地描述这些变化，决策树被用来描述和记录上下文对语音模型的影响。另外，我们在听别人讲话时，并不一定听清了对方发出的每一个音，但根据谈话的主题和我们的语言知识背景，可以猜出那些没听清的音是什么，而且毫不影响我们的交流。这就是语言模型的功劳了。它帮助我们在听到前面的谈话内容后，猜测后面会说什么，特别是有同音词和近音词的时候，帮助我们消除歧义，确定正确的说话内容。IBM的科学家们发明了n元的统计语言模型，通过输入给计算机大量的文字资料，让它“学习”和“记忆”人们会怎么用词，组句。可是，语音识别需要的计算资源太大，没有新的突破它依然只能是实验室技术。特别是要听懂人们日常讲话，因为我们常用的词汇太多，有好几万，科学家们想出了先用快速匹配方法，用很小的计算量很快地找出与发音相似的候选词，然后在缩小的范围中，进行仔细计算，这显著提高了大词汇系统识别的速度。还有其他一系列不胜枚举的重大突破。IBM的许多科学家在这领域长期不懈的努力和获得的一百多项专利，确定了公司技术上的领先地位。另外值得一提的是，得益于这些年微处理器的速度加快，成本降低，语音识别才真正能够走入我们的生活。

创造先进的技术是根本，将技术用于生活和工作，服务于人类才是最终的目的。1997年，IBM公司推出了世界上第一个中文连续语音识别产品——ViaVoice4．0，终于突破了连续语音、大词汇量和非特定识别人的难关，并成功解决了汉语同音字多、有声调、口音复杂等问题，帮助人们从笨拙的键盘输入中解脱出来，因而被广泛认为是汉字输入的重要里程碑。这项技术对中国人的意义尤其重大，因为汉字的键盘输入对许多人来说都是很困难的。至今为止，IBM共有13种语言的语音识别产品。但是听写机只是一个开始，直到去年的ViaVoice巍巍世纪版，更有语音控制、语音上网、网上聊天等功能，让人们能真的轻松运用计算机。（一）

[值班总编推荐] 以劳动谱写时代华章

[值班总编推荐] 习近平向全国广大劳动群众致以节 ...

[值班总编推荐] 古代柬埔寨的文明交汇图景

“群岛哲学”视角下的个体意识与生活哲学
　　【详细】
刘巽达：沪语版《繁花》，够味儿！
　　【详细】
以青年文化主体性推动构建人类命运共同体
　　新时代青年不仅是担当中华民族伟大复兴大任的中坚力量，而且也是推动构建人类命运共同体的重要力量。为此，要把厚植胸怀天下这一情怀作为新时代青年的必修课，砥砺青年勇于担当文化责任，让青春在文明交流互鉴中绘就灿烂篇章。【详细】
加快培育和形成新质生产力
　　【详细】

漫话天下

城市更青春

“五个一百”看大美中国

文化事业进步

【漫评两会】极不寻常极不平凡的过去五年@人民生活水平不断提高